查看原文
其他

慧夜科技:虚拟人智能化趋势下,技术公司的路线选择与应用边界

共同虚拟 共同虚拟 2022-07-31



1月20日,虚拟人技术服务商慧夜科技宣布完成由顺为资本独家投资的Pre-A轮融资。本轮融资将进一步用于完善虚拟人驱动技术、扩充团队,并探索商业化模式。


成立于2019年的慧夜科技,自我定位为一家虚拟⽣命 AI 驱动技术服务商。公司曾于2020年8月获得青山资本领投的天使轮融资。


自去年以来,国内虚拟人行业热度明显上升,但目前虚拟人的呈现形态仍以图像和视频为主,与用户的交互往往通过真人动捕方式实现,存在设备、人力和时间成本较高的痛点。在这样的背景下,不同技术路线的AI解决方案需求上升,当下虚拟人发展已经呈现一定的智能化趋势。


慧夜科技创始人渠思源向共同虚拟表示,慧夜将虚拟人发展分为三个时代。在1.0时代虚拟人仅以图片和视频形式呈现;而2.0时代的虚拟人将更具交互性;最终在未来的3.0时代,虚拟人的核心为个性化。


目前,慧夜自研的AI驱动引擎phantom engine服务于2.0时代需求,核心是基于深度学习的虚拟人动作、表情合成算法。在即将与次世文化合作推出的虚拟人产品DJ Purple上,这一技术已得到落地应用。


渠思源表示,慧夜以向B端客户提供虚拟人技术为主营业务,在商业模式上,未来慧夜计划打造AI Being & Service的SaaS平台。同时,慧夜科技也推出了自己的虚拟人产品,包括数字人 DJ、虚拟健身教练和虚拟品牌代言人等。


按照渠思源的规划,慧夜科技正在从 2.0 向 3.0 过渡。慧夜认为通过真人驱动的虚拟人属于Avatar范畴,其本质是人类行为在虚拟世界的投射,而真正的虚拟人是存在于虚拟世界的独立个体,即AI Being。


渠思源认为,当前虚拟人行业仍处于初级萌发阶段,随着AI技术不断精进,最终虚拟人不仅与人产生交互,还将衍生出特有的性格和人生,成为真正的“虚拟生命体”。在未来虚拟世界中,真人的虚拟形象会与独立的“虚拟生命体”共存,虚拟生命体可能承载着真人无法在物理世界中完成的工作。



 

智能化驱动虚拟人,

定位虚拟⽣命 AI 驱动技术服务商


2019年,一款国产游戏《古剑奇谭三》成为慧夜科技创始团队步入虚拟人行业的契机。

在游戏过程中,创始团队发现主角口型和语音不匹配的问题,便找到追光动画合作,试图通过动画电影中语音和口型数据的深度学习,以算法生成解决这一问题。

“那时还是一个兴趣小组,我们在思考如何对虚拟世界实现本质效率的提升,当时把它理解为一个没有实体的机器人,由此我们引申出了AI Being(虚拟生命)的概念。” 渠思源说。

通过对年轻一代的观察,渠思源感受到近来Z世代对虚拟世界的认可度正在提高,团队一致认为“虚拟世界是未来刚需,而虚拟人是连接虚拟和物理世界的重要纽带。长期来看,要实现交互,高效智能化驱动虚拟人的研究价值巨大。”

在这样的认知下,慧夜科技投身虚拟人赛道,自我定位于“虚拟生命AI驱动技术的服务商”。

渠思源表示,慧夜从技术角度将虚拟人发展分为三个时代。1.0时代对应三维建模和渲染技术,虚拟人仅以图片和视频形式呈现;2.0时代的虚拟人将更具交互性,需要语音文字交互、动作合成技术和实时渲染技术作为支撑;在3.0时代,每一个数字人都可以有自己特定的人格和个性化行为,可以让用户相信他们真实存在于一个虚拟世界,将由个性化决策、语言、动作系统驱动。按照渠思源的规划,慧夜科技正在从 2.0 向 3.0 过渡。


“我们核心团队包括来自清华、北航、阿里的研究员和来自清华美院、湖北美院的艺术创作者,其中研发人员约占60%,美术与产品占40%。” 谈及团队构成,渠思源说道。

目前,慧夜自研的AI驱动引擎phantom engine服务于2.0时代需求,核心是基于深度学习的虚拟人动作、表情合成算法。

渠思源表示,自成立起慧夜团队花费近一年的时间探索前沿技术与工业流程的融合,将美术设计、三维建模、物理引擎、CG渲染、深度学习等技术领域打通。


在其“生成式深度神经网络框架”下,在系统中输入一段音乐,虚拟人便会根据旋律自动起舞。此框架可应用于基于语音的口型生产、基于文本和指导命令的动作生产、基于音乐的舞蹈生成、基于音乐的DJ表演生产等多种内容制作任务。

此前公开的三维舞蹈动作生成算法DanceFormer,即采用运动参数曲线,在舞蹈数据集的训练下,使虚拟人可以跟从给定音乐进行流畅舞蹈。

在渠思源看来,慧夜虚拟人技术的优势有二,一是以AI驱动虚拟人在成本和效率上优于传统动作捕捉技术,二是早期技术路线的选择决定了训练数据的可用性。

“以此次推出的DJ Purple为例,用户输入音乐后可以生产一段完整的DJ表演,用动捕技术制作的话,需要找专业演员培训、录制数据、修补数据,整个流程最快需要一周,但我们AI算法可以做到输入一个小时的music set,播放音乐时同步合成预览动画。”

从数据可用性角度看,传统影视游戏的三维动画数据,由于高度定制化、艺术化处理,在运动数据空间上的分布高度畸形,难以进行属性标注与系统归类,因而很难用于机器学习。

基于这一认知,慧夜放弃定制化内容的变现方式,自创立之初就积累用于机器学习的3D动画原始数据集,在严格数据采集规范下,保证较高可用性,建立智能化数据采集工作流。


 

服务B端市场,

深耕AI虚拟人使用场景


“去年下半年开始,品牌方对虚拟人的需求不断增加,我们的客户也在以倍速增长,大家需要一个与虚拟世界连接的介质,目前来看,就是人性化的虚拟形象。”

渠思源认为,当前以图片、视频形态为主的1.0时代红利不会持续太久,慧夜瞄准的正是2.0时代,通过提供智能化技术,虚拟人可以与用户形成实时交互,甚至进行表演。

由此,慧夜主营业务深耕B端市场,为品牌方和虚拟形象制作公司提供技术服务,此次与次世文化推出的DJ Purple已得到落地应用。

虚拟DJ Purple AI 2.0

谈及行业客户分布,渠思源表示,“现在很多品牌有了自己的形象,但更多是海报或视频的方式呈现,我们提供智能化技术让它动起来。”此外,渠思源透露,目前还在探索与游戏领域的公司合作,未来可能会针对游戏方向推出产品。

在品牌虚拟IP之外,慧夜还计划推出多个垂直场景的虚拟人,例如最近合作的虚拟DJ,以及计划推出的虚拟健身教练。

当前,以DJ Purple和健身教练为例,慧夜产品可分为两类—虚拟娱乐领域和功能性产品。

渠思源表示,团队认为虚拟娱乐场景是未来虚拟人的主要应用方向之一,以DJ Purple为起点,慧夜还将推进类似虚拟歌姬、虚拟舞者等交互性产品,其自有引擎和技术打磨后可以服务于有音乐表演需求的用户。“我们希望做一些可规模化的场景,通过输入文字、语音、控制信号等引导信息,可以帮用户完成深层次的动作表演。”

功能性产品方面,除健身教练,在核心架构或神经网络主干不变的情况下,慧夜将基于其对潜在市场的理解,切入更多规律性与逻辑性较强的细分场景,如虚拟心理医生。其中,在健身场景上所积累的数据可以反向推进算法优化,为后续产品提供技术支持。

“要类比的话,我们后续打法可能类似于Epic Games,他们在打磨自有引擎技术的同时,也在做自己的产品内容。”

在商业模式上,未来慧夜计划打造AI Being & Service的SaaS平台。“不管将AI虚拟人运用在哪种场景下,我们希望提供本地部署和云原生两种使用方式,根据虚拟人的功能不同,定价不同,本质上将它变为一个标准化服务。”

使用方式层面来看,对于在云端完成渲染的虚拟人,将以市场标准和消耗的算力收费,本地部署的虚拟人仅需花费软件授权费用。虚拟人功能层面,动作复杂程度越高,定价则越高,会按时长和消耗的算力进行收费。


 

逐步开始商业化,

行业5年内有望步入3.0阶段


当前,虚拟人智能化已经成为趋势,一些相关产品已经出炉。比如小冰自2014年起以多项自研AI赋能虚拟人,去年7月,其公开的超级自然语音技术首次将AI语音自然度提升至真人水平,实现多场景下的交互性。

顺为资本副总裁冯铮表示:“AI驱动的虚拟人,是虚拟世界的核心交互方式,也是虚拟世界的‘机器人’,赋能实体生活。这其中,AI驱动的动作、语言、感知等能力,是虚拟人的‘大脑’。

就现阶段的探索,冯铮认为,慧夜科技作为这个领域里非常稀缺和前沿的一支团队,拥有非常强的技术、产品和商务能力,并且一直在最前线探索新的AI虚拟人使用场景,并使用技术能力降低应用的成本。

未来计划上,渠思源表示,今年慧夜将在产品、技术与团队等方面深入布局。

产品方面,慧夜往后可能以每季度1-2个的节奏推出更多交互性虚拟人,同时作为一家虚拟生命驱动公司,慧夜还计划在官网上线可实时交互的专属虚拟员工,依托虚拟人为主体,提升用户在固定场景下的信息交互体验。

慧夜科技虚拟生命产品矩阵

技术方面,慧夜通过优化原有算法和AI渲染技术探索,更好地服务于2.0时代交互需求和3.0时代的虚拟人个性化。此外,慧夜会通过建立标准的智能化工作流,缩短新数字产品的孵化时间。

“一方面,我们现有AI驱动算法还有较大优化空间,要走向个性化,虚拟人应该拥有自己的性格、表情和动作,这是我们要解决的;另一方面,我们希望横向扩展我们的技术栈,在AI辅助建模、自动绑定、以及神经网络渲染加速等方向进行深入探索。”

对于目标的实现,渠思源表示,今年起慧夜团队将进一步扩张,并且更为系统化,针对潜在客户和目标人群会匹配相应打法,逐步扩大声量。

在渠思源看来,当下虚拟人行业仍处于初级萌发阶段,不少公司正在针对2.0阶段进行布局,尤其是2021年后半年起,许多应用的逐步落地让市场看到了未来的可能性,但目前还要将重心放在优化用户体验和对产品本身的思考上。

渠思源预估,从1.0走向2.0阶段可能需要2至3年时间,5年内有望步入3.0阶段。届时虚拟人将发生本质变化,不再是纯粹的虚拟机器人,每个虚拟人都有独特的性格和人生,要实现这一点还需更多的技术积累。

同时,渠思源将虚拟人智能化视为行业发展的必然路径。“从2012年Deep Learning发展至今,大量时间、人才和资源的投入让我们有能力驱动虚拟人完成部分任务,未来每个人日常生活中都会接触到虚拟人。”

不过渠思源认为,虽然AI驱动必定会成为未来主流,但短期内真人动捕和传统动画制作技术不会被完全替代。两种技术会在不同场景发挥作用,艺术创作性需求,如剧本或导演指导下的特定表演,仍需真人动捕实现,而对于逻辑性、规律性场景,如虚拟DJ、教练、品牌代言人,AI技术则是标配。

展望未来,渠思源认为,“无论是二次元还是超写实虚拟人,未来都会在虚拟世界承载很多工作,虚拟世界未必是现实生活的映射,每个人会有自己的虚拟形象,但同时可能存在数倍于人的AI Being,他们可以完成许多在物理世界中做不到的事情,与人形成交互,融入每个人的生活。”























您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存